La Classification non Supervisée (Clustering) de Documents Textuels par les Automates Cellulaires

نویسندگان

  • Reda Mohamed Hamou
  • Ahmed Lehireche
چکیده

Résumé : Dans cet article nous présentons un automate cellulaire (Class_AC) pour résoudre un problème de text mining en l’occurrence la classification non supervisée (Clustering). Avant de procéder à l’expérimentation par l’automate cellulaire, nous avons vectorisés nos données en procédant à l’indexation des documents textuels provenant de la base de donnée REUTERS 21578 par l’approche Wordnet. L’automate que nous proposons dans cet article est une grille de cellules de structure plane avec un voisinage découlant de cette structure (planaire). Trois fonctions de transitions ont servi à faire varier l’automate ayant quatre états pour chaque cellule. Les résultats obtenus montrent que la machine virtuelle à calcul parallèle (Class_AC) regroupe efficacement des documents similaires à un seuil prés.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Classification Automatique Non supervisée de Documents Textuels basés sur Wordnet

Mettre en œuvre l’une des méthodes de classification non supervisée consiste en premier lieu à choisir une manière de représenter les documents (Sebastiani, 2002) ; dans un second temps il faut choisir une mesure de similarité, et en dernier lieu choisir un algorithme de classification que l'on va mettre au point à partir des descripteurs et de la métrique choisis. Tout document dj sera transfo...

متن کامل

Analyse des suites aléatoires engendrées par des automates cellulaires et applications à la cryptographie

On s'intéresse aux interactions entre la cryptologie et les automates cellulaires. Il a ´ eté montré récemment qu'il n'existe pas de r` eglé elémentaire d'automate cellulaire non-linéaire robustè a la corrélation. Ce résultat limite fortement l'usage d'automates cellulaires pour la construction de suites pseudo-aléatoires servant de clés utilisables en cryptographiè a clé secrète. De plus, pour...

متن کامل

Classification non supervisée floue des termes basée sur la proximité pour les systèmes de recherche d'information

RÉSUMÉ. Le regroupement des termes basé sur la mesure de proximité est une stratégie menant efficacement à trouver les documents pertinents. Contrairement à ce qu’ont montré les études récentes qui ont utilisé la proximité des termes pour le classement des documents, le processus de recherche d’information est entièrement revu dans ce travail en ce qui concerne les étapes d’indexation et d’inte...

متن کامل

Une nouvelle approche pour la classification non supervisée en segmentation d'image

Résumé. La segmentation des images en régions est un problème crucial pour l’analyse et la compréhension des images. Parmi les approches existantes pour résoudre ce problème, la classification non supervisée est fréquemment employée lors d’une première étape pour réaliser un partitionnement de l’espace des intensités des pixels (qu’il s’agisse de niveaux de gris, de couleurs ou de réponses spec...

متن کامل

Semi-supervised incremental clustering of categorical data

Résumé. Le clustering semi-supervisé combine l’apprentissage supervisé and non-supervisé pour produire meilleurs clusterings. Dans la phase initiale supervisée de l’algorithme, un échantillon d’apprentissage est produit par selection aléatoire. On suppose que les exemples de l’échantillon d’apprentissage sont étiquetés par un attribut de classe. Puis, un algorithme incrémentiel développé pour l...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2009